iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 2
0
AI & Data

跟top kaggler學習如何贏得資料分析競賽 系列 第 2

[Day 2] kaggle網站重點/ 規劃 pipeline

  • 分享至 

  • xImage
  •  

kaggle網站重點

Data : 資料的區塊有兩個重點, description 跟 rules 要研讀清楚, 尤其是 rules
Model : 建模要發揮最佳預測(best prediciton)跟模組能夠重製(reproducable)
Submission : 通常是要參賽者送出預測結果, 也有少數比賽會要求送出 code
Evaluation : 指的是評估正確率(rate of correct answers), 一般來說evaluation function用的有 Accuracy, Logistic loss, AUC 或 RMSE, MAE 等.
Leaderboard : 排名分成 public/private, private是在快結束前, 通常會讓參賽者寄兩個 final submission

除了kaggle網站, 還有其他競賽網站
Kaggle
DrivenData
CrowdAnalityx
Codalab
DataScienceChallenge.net
DataScience.net
Single competition sites - KDD, VizDoom

Kaggle 的第一步

  • kaggle.com
  • Rules "很重要", "很重要", "很重要"
  • Data
  • Discussion : Kaggle 的精神不僅是參賽跟學習, 重點是分享, 所以大家可以在分享的各種角度見解投讚 (up vote)
  • Kernels : 可當作 smart virtue machine, 直接在 Kernels 上寫 code 跟執行, 然後分享. 另外, 看到其他參賽者有用的 code, 可以直接 fork 下來
  • sample submission : 老師建議以比賽 sample submission 先送出一次.
  • Leaderboard : 送出後可立即在 Leaderboard 看到名次
  • points, tiers : 點進 Overview 下方有 points 跟 tiers 的介紹, 可以得知參加該競賽對自己的排名有沒有幫助.
  • User Ranking : 右上角 Jobs 跟自己的頭像間有 ..., 點擊"...", 可以看自己的排名
  • Host a competition : 右上角 Jobs 跟自己的頭像間有 ..., 點擊"...", 自己主持一個競賽

參賽流程, 規劃 pipeline

  • 理解 business 問題, 才能做出好 features
  • 寫出問題的方程式
  • 搜集資料
  • 資料處理/清理資料
  • 建模, 包括評估模型在真實世界時, 部署的方式

Kaggle 競賽與真實世界的差異

面向 Real World Competition
Problem Formalization Y N
Choice of target metric Y N
Deployment issues Y N
Inference speed Y N
Data collecting Y N/Y
Model Complex Y N/Y
Target metric value Y Y

主要 ML 演算法

(1) Linear Models
(2) Tree-Based Methods
(3) K-NN
(4) NN

下列說明
(1) Linear Models 包括 Logistic Regression, SVM
(2) Tree-Based Methods 有 Decision Tree, Random Forest 跟 GBDT. 以下是老師們愛用且強力推薦的,且scikit-learn 都有, 像Gradient Boosted Decision Trees, XGBoost, LightGBM.
(3) K-NN 是 K-nearest neighbors, 處理 2 元問題,
(4) NN 就是 Neural Network, 建議用 TensorFlow playground 可處理 text, images跟 sounds. 老師建議用 PyTorch, 常用的有 TensorFlow, Keras, MXNet, PyTorch 跟 Lasagne.

重點摘要

  • 詳細了解參賽 rules 很重要
  • 從別人的分享中學習
  • 規劃出適合自己的參賽 pipeline, 然後找同伴, 一起進步比較快
  • 掌握及運用演算法知識

上一篇
[Day 1] 跟top kaggler學習如何贏得資料分析競賽 - 4周主題架構
下一篇
[Day 3] 特徵預處理及生成 Feature Preprocessing and Generation (Numeric Features) - 1/2
系列文
跟top kaggler學習如何贏得資料分析競賽 30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言